AMD AI GPU K6 BMv1은 CPU 내장 그래픽 코어를 활용해, 한국어에 강한 다국어 대형 언어 모델(LLM)을 쉽게 실행할 수 있습니다. 간단한 AI 챗봇을 부담 없이 손쉽게 구축할 수 있습니다.
Ollama, vLLM, KTransformers 등의 프레임워크를 기반으로 대규모 언어 모델(LLM)을 실행할 수 있는 최적화된 사양을 제안합니다.
DeepSeek-R1 671B와 같은 초대형 언어 모델도 NVIDIA 하이엔드 Multi-GPU 환경이 아니여도 합리적인 비용으로 실행할 수 있습니다.
APU, 8 Multi-GPU, 1TB Memory로 소형부터 초대형까지 LLM을 실행할 수 있습니다.
최신 NVIDIA 데이터센터용 VRAM 96GB GPU를 Multi로 구성할 수 있는 시스템 환경을 제공합니다.
프로젝트 목표 및 사용 환경을 고려하여 프레임워크를 선택해야 합니다. 스마일서브는 LLM을 실행할 수 있는 인프라 자원에 가장 최적화된 프레임워크를 제공합니다.
VM 또는 저사양 서버에서 4bit 및 8bit로 양자화된 주요 오픈소스 LLM을 간소화된 환경에서 실행할 수 있도록 설계된 경량 플랫폼
메모리 효율성: 가볍고 확장 가능한 구조로 설계되어, 다양한 컴퓨팅 환경에서 로컬 자원을 효율적으로 활용할 수 있습니다.
직관적 통합: 간단한 API와 사전 구축된 모델 라이브러리를 제공하여, 별도의 복잡한 환경 설정 없이 바로 대규모 언어 모델을 생성, 실행, 관리할 수 있습니다.
로컬 중심 확장성: 클라우드 솔루션에 의존하지 않고, 사용자가 직접 모델 가중치, 구성, 데이터를 패키징 및 조정할 수 있으며, GPU 활용 최적화 옵션을 지원합니다.
자유로운 모델 운용: Llama, Gemma 등 다양한 대형 언어 모델을 로컬 환경에서 직접 운용·제어하여 데이터 보안과 프라이버시를 강화할 수 있습니다.
유연한 인프라 호환: Mac, Windows, Linux 등 다양한 OS와 환경에서 일관된 LLM 서비스 제공이 가능합니다.
고성능 LLM 서빙 및 추론을 지원하는 프레임워크로 GPU 기반의 빠른 토큰 생성과 효율적인 분산 처리 가능한 프레임워크
메모리 효율성 : PagedAttention 기술을 기반으로 대규모 언어 모델에서 메모리 사용을 최적화하고 처리 효율을 높입니다.
비동기적 실행 : 입력 요청을 비동기적으로 처리하여 GPU의 활용도를 극대화하며, 동시에 여러 작업을 효율적으로 수행할 수 있습니다.
확장 및 호환성 : 다양한 하드웨어 환경에서 실행 가능하며, 모델 크기와 데이터 입력 크기에 따라 유연하게 확장 가능합니다.
Nvidia GPU 지원 : 뛰어난 성능의 Nvidia GPU 모델과 VRAM의 강력한 성능으로 결과물을 높일 수 있습니다.
관리자 권한 제공 : vLLM에서 제공하는 다양한 LLM을 설치 제어할 수 있는 권한을 부여합니다.
다양한 인프라 자원 제공 : VM, Baremetal에서 실행하여 프로젝트 목표에 따라 조절할 수 있습니다.
DeepSeek-R1 671B와 같은 초대형 언어 모델을 실행할 수 있는 비용 효율성에 극대화된 프레임워크
메모리 관리: Transformer 모델의 크고 복잡한 구조를 효율적으로 처리할 수 있도록 핵심 연산(특히 Attention)의 메모리 사용을 최소화해, 보다 적은 자원으로도 고성능 추론이 가능합니다.
실행 속도: PyTorch, CUDA와의 최적화된 연동을 통해 GPU를 최대한 활용하며, 기존 Transformer 구현 대비 빠른 토큰 생성과 병렬 처리 효율을 보장합니다.
모듈화/확장성: LLM 서빙 프레임워크(vLLM, HuggingFace Transformers 등)와의 호환성이 뛰어나, 다양한 모델과 애플리케이션에 즉시 적용이 가능합니다.
GPU 성능 극대화: 최신 Nvidia GPU의 연산 성능과 대용량 VRAM을 최대한 활용할 수 있는 최적화된 Attention 연산을 제공합니다.
대규모 추론 지원: 복수의 입력 데이터에 대해 동시 추론, 배치 처리 등 고속 대량 처리가 필요한 서비스 환경에 적합합니다.
오픈소스 및 유연성: 자유롭게 커스터마이징이 가능한 오픈 소스 라이브러리로, 프로젝트 요구 사항에 맞춰 세밀한 설정과 연동이 가능합니다.
LLM 실행 시 CPU-GPU 혼합 사용은 효율성 향상에 필수적입니다. 모델 규모와 추론 프레임워크에 따라 적절한 GPU 및 메모리 사양이 달라지며, 양자화 모델의 경우 아래 가이드를 참고하시기 바랍니다.
LLM 모델 | 매개변수 | URL(허깅페이스) | 컨텍스트 길이(tokens) | 성능(능력) |
---|---|---|---|---|
gpt-oss | 20B |
Ollama Hugging Face |
128K |
- o3-mini보다 우수하며 o4-mini와 거의 동등한 수준의 추론 능력 보유 - 수학, 일반 문제해결, 도구 호출 등에서 뛰어난 성능 발휘 - MMLU, HLE 등 언어(이해/추론/작문) 능력 상위 수준 |
120B |
Ollama Hugging Face |
|||
Qwen3 | 30B |
Ollama Hugging Face |
32K |
- 코드·수학·추론 등에서 상위 모델보다 뛰어난 MoE 아키텍처 적용 - 119개 국 다국어 지원 모델로써 한국어 처리 성능 우수 - 빠른 답변 속도와 향상된 코드 생성 능력 제공 |
32B |
Ollama Hugging Face |
|||
235B |
Ollama Hugging Face |
|||
DeepSeek-R1 | 7B |
Ollama Hugging Face |
128K |
- 계산, 코딩, 응답 품질 등 GPT-4 이상 수준의 우수한 성능 - 중국어 및 영어에 능통, 준수한 한국어 이해도 및 응답 성능 |
14B |
Ollama Hugging Face |
|||
70B |
Ollama Hugging Face |
|||
671B |
Ollama Hugging Face |
|||
Gemma3 | 12B |
Ollama Hugging Face |
input : 128K output : 8192 |
- 경량화 기반 메모리 효율성 우수 - GPT-3.5 기반의 안정적 성능 - 다국어 지원 모델로써 한국어 처리 성능 우수 |
27B |
Ollama Hugging Face |
|||
Llama4 - Scout | 17B |
Ollama Hugging Face |
10M |
- 최대 10M 토큰의 초장기 문맥 유지 가능 - 긴 문서 요약, 지속 대화 성능, 코드베이스 분석에 특화(정밀 추론 성능은 일반적) - 영어 중심 설계, 한국어 성능 다소 낮음 |
Llama3.3 | 70B |
Ollama Hugging Face |
128K |
-GPT-4 Turbo급 고성능 추론 및 대화 가능 - 추론, 대화, 코딩, 지식 응답 성능 우수 - 다국어 학습 기반 모델, 한국어 성능 준수 |
Llama3.2 | 11B |
Ollama Hugging Face |
128K |
- 경량 모델 대비 뛰어난 코딩 처리 성능 및 우수한 안정성 - 다국어 학습 기반 모델, 한국어 성능 일부 한계 존재 |
90B |
Ollama Hugging Face |
- GPT-4 Turbo급 대화, 추론, 지식 응답 가능 - 대규모 파라미터 기반의 다국어 학습, 한국어 대응력 우수 |
||
Phi4 | 14B |
Ollama Hugging Face |
32K |
- 빠른 응답 속도, GPT-3.5급 논리 추론, 요약 가능 - 경량화에 최적화된 모델 - 한국어의 정확도, 유창성 다소 낮음 |
HyperCLOVA X SEED | 1.5B |
Hugging Face |
16K |
- 온디바이스 및 저사양 환경에 최적화된 경량 모델 - GPT-3.5 계열 소형 모델 수준의 정확도 및 안정성 - 한국어 기반 지시어 및 질문 응답 성능 매우 우수 |
3B |
Hugging Face |
모델 | 매개변수 | DRAM 최소 사양 | 실행 환경 |
---|---|---|---|
초소형 | ~ 2B 파라미터 | 4 ~ 8GB | 노트북 수준의 GPU 또는 일부 CPU-only 환경에서도 실행 가능 |
소형 | 2B ~ 10B 파라미터 | 8 ~ 16GB | 일반 소비자용 GPU 가능 4090 등 |
중형 | 10B ~ 20B 파라미터 | 16 ~ 32GB | 4000Ada 이상 또는 RTX 4090/5090 Multi-GPU 구성 |
대형 | 20B ~ 70B 파라미터 | 32 ~ 128GB | A6000, PRO5000 Multi-GPU 구성 |
초대형 | 70B ~ 파라미터 | 128GB 이상 | PRO6000 Multi-GPU 구성 이상 |
AI 기반의 분석 및 시각화 서비스를 제공하는 Artificial Analysis 에서 LLM에 대한 더 다양한 자료를 참고할 수 있습니다. (해당 사이트는 정보 제공을 목적으로 공유하며, 스마일서브와는 무관합니다.)
스마일서브는 합리적인 가격의 GPU 서버를 통해 사용자가 원하는 환경에서 필요한 서비스를 유연하게 구동할 수 있도록 지원합니다.
사용자는 GPU Pass-through로 할당되는 가상 서버, 즉시 활용 가능한 온디맨드 베어메탈 서버,
원하는 사양으로 직접 구성하는 맞춤형 GPU 서버 중 선택하여 자신의 용도와 예산에 최적화된 인프라 자원을 자유롭게 선택할 수 있습니다.
CLOUDV에서 제공하는 AMD GPU 기반 Ollama 특화 베어메탈 서버는 고밀도 집적을 위한 전용 폼팩터와 합리적인 월 요금제로 고성능 LLM 환경을 제공합니다.
상품명 | AMD AI GPU K6 BMv1 | AMD AI 9060XT BMv1 | AMD AI W6800 BMv1 |
---|---|---|---|
GPU Type | AMD APU | 9060XT (Stream Processors: 2,048) |
W6800 (Stream Processors: 3,840) |
GPU | 1 | 1 | 1 |
VRAM | Custom | 16GB (GDDR6) |
32GB (GDDR6) |
CPU(Thread) | 16 Thread | 16 Thread | 16 Thread |
DRAM | 32GB | 64GB | 64GB |
Storage(OS) | 512GB SSD | 500GB SSD | 500GB SSD |
네트워크 속도 | 1Gbps | ||
(전체) 월 2,400GByte 기본 제공, 초과 1GB당 70원 (해외) 월 50GByte 기본 제공, 초과 100MB당 40원 |
|||
지원 프레임워크 | Ollama | Ollama | Ollama |
이용료(월) | 75,000원 | 149,000원 | 199,000원 |
GPU서버 구매가 부담되거나 GPU 성능 확인 및 테스트가 필요할 경우 iwinv GPU 가상 서버를 이용하세요. GPU 종류에 따라 최대 4개까지 가상화된 환경에서 할당(PassThrough)한 서버를 일 요금으로 이용할 수 있습니다.
GPU 모델 | Tesla T4 | 4000Ada | A6000 | PRO5000 | PRO6000 |
---|---|---|---|---|---|
GPU 개수 | 1 ~ 4 GPU | ||||
vCPU | 6 ~ 24 vCPU | 8 ~ 32 vCPU | 8 ~ 32 vCPU | 8 ~ 32 vCPU | 8 ~ 32 vCPU |
DRAM | 60 ~ 240GB | 120~480GB | |||
VRAM | 16 ~ 64GB | 20 ~ 80GB | 48 ~ 192GB | 48 ~ 192GB | 96 ~ 384GB |
Storage(OS) | SSD 100GB | ||||
AI 프레임워크 |
LLM: Ollama, vLLM AI/ML: TensorFlow, PyTorch 등 |
||||
이용료(일) | 6,260원 ~ | 9,200원 ~ | 18,200원 ~ | 준비중 | 51,480원 ~ |
LLM 서버 성능은 사용 목적에 맞는 사양 설정에 따라 달라집니다. GPU는 병렬 연산, CPU는 모델 관리 및 데이터 처리, RAM은 대용량 처리, Storage는 데이터 저장 및 I/O 속도에 각각 기여합니다. LLM 모델의 규모, 목적, 예산에 맞춰 선택할 수 있습니다.
GPU는 LLM 처리에서 가장 중요한 요소 중 하나로, 대규모 병렬 연산을 수행합니다.
- GPU 메모리 용량 (VRAM): 대규모 언어 모델의 경우 모델 크기가 매우 크기 때문에 GPU의 VRAM 용량이 충분히 커야 합니다.
- FP16/FP32 연산 속도 : AI 작업에서 주로 사용되는 FP16(half-precision) 연산 속도가 높은 GPU를 선택해야 합니다.
- 다중 GPU 지원 여부 : 대형 모델은 기본적으로 멀티 GPU 구성이 필요합니다.
CPU는 전체 시스템의 제어와 데이터 전처리 및 모델 관리를 담당합니다.
- 코어 수: CPU 코어는 병렬 데이터 로딩 및 모델 스케줄링을 처리하므로 멀티코어 프로세서가 유리합니다.
- 클럭 속도 : 높은 클럭 속도는 빠른 데이터 준비와 모델 실행 속도를 지원합니다.
RAM은 모델 실행 및 데이터 처리 시 임시 데이터를 저장하는 역할을 합니다.
- 용량: RAM은 GPU 메모리의 한계를 보완하는 역할을 합니다. 따라서 충분한 RAM 용량이 중요합니다.
- 속도 (클럭) : RAM 클럭 속도가 빠를수록 데이터 처리 속도가 향상됩니다. DDR4 또는 최신 DDR5 메모리를 추천합니다.
- 메모리 확장성 : 서버의 RAM 슬롯 수를 확인하여 필요 용량을 계산할 수 있습니다.
Storage는 LLM 작업에서는 모델 저장 및 데이터 I/O 성능이 중요합니다.
- 속도: 고속 데이터 입출력을 위해 NVMe SSD를 추천합니다.
- 입출력 작업 수 : 대규모 데이터셋을 빠르게 불러오기 위해 IOPS(초당 입력/출력 작업 수)가 높은 SSD를 추천합니다.
- 용량 : 1~2TB 이상의 용량을 권장합니다.
지원 범위 | Ollama, vLLM(4GPU) | Ollama, vLLM(8GPU) | Ktransformers |
---|---|---|---|
GPU 슬롯 | 최대 4개 | 최대 8개 | 최대 1개 |
GPU 모델 |
- AMD : w6800, 9700 - NVIDIA : 4000Ada, A6000, 6000Ada PRO5000, PRO6000, 4090 blower |
- AMD : w6800, 9700 - NVIDIA : 4000Ada, A6000, 6000ada, PRO5000, PRO6000, 4090 blower |
- NVIDIA : 4000Ada, A6000, 6000Ada, PRO5000, PRO6000, 4090 blower, 5080, 5090 |
CPU | 1 x Xeon Silver 4314 (16C/32T) |
2 x Xeon Silver 4314 (32C/64T) |
2 x Xeon Silver 4510 (24C/48T) |
RAM | 8 x 16~64GB (DDR4) |
32 x 16~64GB (DDR4) |
16 x 64GB (DDR5) |
Storage |
SSD, NVMe - 내부: 2 x PCIe3.0 x2, 1 x SATA3(2.5") - 외부: 8 x SATA3(2.5"/3.5") Hot-swap |
SSD, NVMe - 내부: 1 x PCIe3.0 x4 - 외부: 12 x SATA3(2.5"/3.5") Hot-swap |
SSD, NVMe - 내부: 2 x PCIe4.0 x2, 1 x SATA3(2.5") - 외부: 8 x SATA3(2.5"/3.5") Hot-swap |
LAN |
- 4 x 2.5Gbps(RJ45, Ethernet 전용) - 1 x IPMI 전용(RJ45) - 최대 2port 10Gbps NIC 장착 가능 (3GPU 이하 시) |
- 2 x 1Gbps(RJ45, Ethernet 전용) - 1 x IPMI 전용(RJ45) - 최대 2port 10Gbps NIC 장착 가능 |
- 2 x 1Gbps(RJ45, Ethernet, 1x IPMI 공유) - 1 x IPMI 전용(RJ45) - 최대 2port 10Gbps NIC 장착 가능 |
Chassis | SMILE Barebone4U | Tyan GPU B7129F83AV8E4HR-N-HE | SMILE Barebone4U |
PSU | ATX [2000/2500]W Single | - 6000W(3+1 2,000W RPSU, 80+ Platinum) - 4800W(3+1 1,600W RPSU, 80+ Platinum) |
ATX 1200W Single |
제조사 | NVIDIA | AMD | |||||
---|---|---|---|---|---|---|---|
모델 | PRO6000 | PRO5000 | Tesla T4 | A6000 | 4000Ada | RX9060XT | W6800 |
아키텍쳐 | Blackwell | Blackwell | Turing | Ampere | Ada Lovelace | AMD RDNA™ 4 | AMD RDNA™ 2 |
GPU 메모리 | 96GB (GDDR7 ECC) |
48GB (GDDR7 ECC) |
16GB (GDDR6 ECC) |
48GB (GDDR6 ECC) |
20GB (GDDR6 ECC) |
16GB (GDDR6) |
32GB (GDDR6 ECC) |
GPU 메모리 대역폭 | 1,792 GB/s | 1,344 GB/s | 320 GB/S | 768 GB/S | 360 GB/S | 320 GB/s | 512 GB/S |
CUDA 코어 (스트림프로세서) |
24,064 | 14,080 | 2,560 | 10,752 | 6,144 | 2,048 | 3,840 |
FP32 성능 | 110 TFLOPS | 73.2 TFLOPS | 8.1 TFLOPS | 38.7 TFLOPS | 26.7 TFLOPS | 25.6 TFLOPs | 17.83 TFLOPS |
TDP | 300W | 300W | 70W | 300W | 130W | 160W | 250W |
본 페이지는 AI 추론 활용에 대한 환경 정보를 제공하므로, GPU 서버에 대한 자세한 사항은 각 상품 페이지에서 확인할 수 있습니다.
본 페이지에 표시된 정보는 실제 정보를 확인할 수 있는 상품 페이지의 내용과 상이할 수 있으며, 실제 서비스가 가능한 페이지의 정책을 우선으로 합니다.
기타 이용에 관한 사항은 약관 및 SLA에서 확인하시기 바랍니다.
1. 베어메탈
① 상품 이용에 대한 상세 정보 및 정책은 영구임대-온디맨드에서 확인할 수 있습니다.
2. 맞춤서버
① 맞춤 서버는 상담 > 견적 > 납품 순으로 진행하며, 이 과정에서 서비스 이용까지 시간이 소요될 수 있습니다.
② 스마일서브 IDC 외 설치 장소는 스마일서브 협력사를 통하여 납품을 납품되므로 출장비가 발생합니다.
③ 맞춤 서버는 견적 당시 기준으로 공급가가 결정되며, 견적 유효 기간 또는 공공 요금 인상 등의 이유로 변경 될 수 있습니다.
3. 가상서버
① 가상서버에 관한 모든 사양은 iwinv 홈페이지에서 확인 가능합니다..